OpenAI, obligada a revelar legalmente los datos del ChatGPT

Alejandro Urueña
Etica e Inteligencia Artificial (IA) - Founder & CEO Clever Hans Diseño de Arquitectura y Soluciones en Inteligencia Artificial. Abogado. Diplomado en Derecho del Trabajo y Relaciones Laborales, Universidad Austral; Magister en Inteligencia Artificial Centro Europeo de Posgrado (T.P). Programa MIT ( Instituto Tecnológico Massachusetts) XPRO Diseño y Desarrollo Productos Servicios de Inteligencia Artificial Insignia de Asignación Ejemplar.

María S. Taboada
Lingüista y Mg. en Psicología Social. Prof. de Lingüística General I y Política y Planificación Lingüísticas de la Fac. de Filosofía y Letras de la UNT.

En una decisión judicial que podría tener repercusiones históricas para el futuro de la inteligencia artificial, la jueza Araceli Martínez-Olguín, del Distrito Norte de California, ha aprobado un “Protocolo de inspección” que obliga a OpenAI (Inteligencia Artificial) a poner a disposición de los demandantes los datos utilizados para entrenar su emblemático modelo: ChatGPT (puedes acceder a los detalles del caso Tremblay et al. v. OpenAI, Inc. (3:23-cv-03223-AMO) y al documento número 182 presentado el 24 de septiembre de 2024 en el Tribunal de Distrito del Norte de California a través del siguiente enlace en Justia). Esta medida no sólo marca un precedente en los litigios relacionados con la IA, sino que también plantea importantes interrogantes sobre la protección de datos y la confidencialidad en un sector altamente competitivo.

El protocolo

El protocolo aprobado establece un conjunto detallado de procedimientos para la revisión de los “datos de entrenamiento” utilizados por OpenAI. Se entiende por tales a “los datos utilizados para entrenar los modelos LLM relevantes de OpenAI”. Bajo esta orden, los demandantes podrán inspeccionar dichos datos en una computadora segura, sin conexión a Internet, ubicada en las oficinas de la compañía en San Francisco o en un lugar designado cercano. Las restricciones son extremadamente rigurosas: los demandantes firmarán previamente un acuerdo de no divulgación, como parte de la “Orden de protección”, y no se permitirá la copia, grabación o transmisión de ninguna parte de los datos fuera de lo que se llama entorno seguro.

Este nivel de seguridad no es casual. El contenido de los “datasets” utilizados por OpenAI está considerado como un activo de incalculable valor estratégico. La demanda colectiva contra la empresa exige que se revele esta información bajo estrictas condiciones de confidencialidad, clasificando todos los documentos como “Altamente confidenciales – Sólo para los ojos de los abogados”. Esta medida busca asegurar que únicamente los equipos legales y consultores designados puedan acceder a los datos, mientras que OpenAI podrá supervisar visualmente, por fuera de la sala donde se realiza el proceso de inspección, sin interferir directamente.

Qué implica

Este caso resalta un tema clave: ¿hasta qué punto las empresas de tecnología pueden o deben revelar los datos que alimentan sus algoritmos? El acceso a los “datasets” y su inspección detallada podría ofrecer a los demandantes pruebas esenciales para argumentar que OpenAI ha infringido derechos de autor o utilizado datos de manera no autorizada en el desarrollo de sus modelos.

Escrutinio

Este juicio no sólo abre la puerta a un escrutinio más profundo en los sistemas de Inteligencia Artificial, sino que también podría influir en cómo las futuras startups y gigantes tecnológicos gestionan la transparencia de sus procesos de desarrollo.

El futuro de este litigio está por escribirse, pero su impacto ya es evidente. En un entorno donde los “algoritmos de inteligencia artificial” están moldeando el mundo, desde sistemas de recomendación hasta el análisis del lenguaje, las decisiones judiciales que rodean la “transparencia” y el acceso a datos se están convirtiendo en un campo de batalla clave.

Si bien el protocolo implica de hecho un avance clave en la posibilidad de esclarecimiento de los datos que, hasta ahora indiscriminadamente, emplean las empresas e inicia un camino de protección de los usuarios, no hay que dejar pasar que se trata de un proceso que se inicia sobre hechos consumados.

No implica el protocolo entonces una normativa que regule previamente la discrecionalidad en el uso de datos para el entrenamiento de algoritmos.

Sigue existiendo un vasto territorio vacante de legislación, en el que las únicas que “regulan” las acciones son las propias empresas tecnológicas, hasta ahora libres de decidir, elegir y manipular el enorme universo de información del planeta que circula en absolutamente toda la web.

El porqué de las empresas

Uno de los argumentos que se esgrimen para sostener esa “libertad” de decisión de las empresas es que la web es pública y está al alcance de todos. Se confunde así “libre” acceso con la privacidad de los datos de los usuarios en una estrategia discursiva encubridora de las prácticas de extractivismo de sus identidades y recursos personales. A eso se suma el hecho de que son muy pocos los usuarios que tienen conciencia de que al momento de acceder a la web o al uso de apps (como por ejemplo WhatsApp) están poniendo totalmente todos sus datos a disponibilidad de las empresas.

Cabe entonces volver a insistir en la importancia de un espacio de educación digital crítica en el sistema educativo que recorra todos los niveles, desde la primera infancia, para que los ciudadanos aprendan a preservar y defender sus derechos primordiales en este nuevo mundo virtual.

OpenAI, obligada a revelar legalmente los datos del ChatGPT

El protocolo

Qué implica

Escrutinio

El porqué de las empresas

{{titulo}}